AI има всички отговори. Дори грешните
Могат ли огромните езикови модели да вземат решение логичен пъзели? Има един метод да разберете, който е да попитате. Това направиха неотдавна Фернандо Перес-Крус и Хюн Сонг Шин. (Перес-Крус е инженер; Шин е началник на проучванията в Банката за интернационалните разплащания, както и индивидът, който при започване на 90-те години ме научи на някои от по-математическите елементи от икономическата доктрина.)
Въпросният пъзел е прочут като „ Пъзелът за рождения ден на Шерил “. Шерил провокира приятелите си Албърт и Бърнард да отгатнат нейния рожден ден и заради мистерия те знаят, че това е една от 10 дати: 15, 16 или 19 май; 17 или 18 юни; 14 или 16 юли; или 14, 15 или 17 август. За да форсира отгатването, Шерил споделя на Албърт своя месец на раждане и споделя на Бернард деня от месеца, само че не и самия месец.
Албърт и Бърнард мислят известно време. Тогава Албърт афишира: „ Не знам твоя рожден ден и знам, че Бернар също не знае. “ Бърнард дава отговор: „ В подобен случай към този момент знам твоя рожден ден. “ Алберт дава отговор: „ Сега знам и твоя рожден ден. “ Кой е рожденият ден на Шерил?* По-конкретно, какво научаваме, задавайки GPT-4?
Пъзелът е провокационен. Решаването му изисква елиминиране на опциите малко по малко, до момента в който размишлявате върху въпроси като „ какво е това, което Алберт би трябвало да знае, като се има поради това, което той знае, а Бърнард не знае? “ Следователно е извънредно впечатляващо, че когато Перес-Крус и Шин неведнъж желаеха от GPT-4 да реши пъзела, огромният езиков модел получаваше верния отговор всякога, като свободно разработваше разнородни и точни пояснения на логиката на казуса. И въпреки всичко това бравурно показване на логическо майсторство не беше нищо повече от интелигентна заблуда. Илюзията се разпадна, когато Перес-Крус и Шин желаеха от компютъра банално модифицирана версия на пъзела, променяйки имената на героите и на месеците.
GPT-4 продължи да създава плавни, правдоподобни пояснения на логиката, толкоз плавни, в действителност, че е нужна същинска централизация, с цел да се виждат моментите, когато тези пояснения се разтварят в нелепости. Както истинският проблем, по този начин и неговият отговор са налични онлайн, тъй че евентуално компютърът се е научил да перифразира този текст по комплициран метод, създавайки тип на брилянтен логик.
Когато пробвах същото, запазвайки публична конструкция на пъзела, само че като трансформирах имената на Джулиет, Бил и Тед и месеците на януари, февруари, март и април, получих същия пагубен резултат. И GPT-4, и новият GPT-4o авторитетно обработиха структурата на аргумента, само че стигнаха до погрешни изводи на няколко стъпки, в това число последната. (Също по този начин разбрах, че при първия си опит вкарах съдбовна печатна неточност в пъзела, което го направи неразгадаем. GPT-4 не мигна окото и все пак го „ реши “.)
Любопитно, пробвах различен прочут пъзел а. Участник в шоуто се пробва да откри премия зад една от трите порти. Ръководителят на викторината, Монти Хол, разрешава конвенционален избор, отваря друга врата, с цел да не разкрие огромната премия, и по-късно предлага на състезателя шанса да смени вратите. Трябва ли да се сменят?
Проблемът с Монти Хол в действителност е доста по-прост от рождения ден на Шерил, само че е объркващо контраинтуитивен. Направих нещата по-трудни за GPT4o, като прибавих някои затруднения. Представих четвърта врата и попитах не дали състезателят би трябвало да смени (трябва), а дали си коства да платите $3500 за промяна, в случай че две порти са отворени и огромната премия е $10 000.**
GPT- Отговорът на 4 беше незабравим. Той заобикаля когнитивния капан в този пъзел, ясно формулирайки логиката на всяка стъпка. След това се забърка на финалната линия, добавяйки безсмислено съмнение и като резултат извличайки неверен отговор.
Какво да вършим с всичко това? В прочут смисъл Перес-Крус и Шин просто са намерили поврат на познатия проблем, че огромните езикови модели от време на време вмъкват правдоподобна небивалица в своите отговори. Вместо правдоподобни в действителност неточности, тук компютърът сервира правдоподобни логичен неточности.
Защитниците на огромни езикови модели може да отговорят, че с ловко проектирана подкана компютърът може да се оправи по-добре (което е правилно, макар че думата „ може “ прави доста работа). Също по този начин е съвсем несъмнено, че бъдещите модели ще се оправят по-добре. Но както настояват Перес-Крус и Шин, това може да не е значимо. Компютър, който може да наподобява толкоз прав, само че да е толкоз неверен, е рисков инструмент за потребление. Сякаш разчитахме на електронна таблица за нашия разбор (достатъчно рисково вече) и електронната таблица от време на време и спорадично забравяше по какъв начин работи умножението.
Не за първи път научаваме, че огромните езикови модели могат да бъдат феноменални глупави мотори. Трудността тук е, че нелепостите са толкоз правдоподобни. Виждали сме неистини и преди, и неточности, и Бог знае, че сме виждали плавни блъфъри. Но това? Това е нещо ново.
*Ако на Бернар беше казано 18 (или 19), той щеше да знае, че рожденият ден е 18 юни (или че е 19 май). Така че, когато Алберт споделя, че знае, че Бърнард не знае отговора, това изключва тези благоприятни условия: Алберт би трябвало да е споделил юли или август вместо май или юни. Отговорът на Бърнард, че към този момент знае отговора сигурно, разкрива, че не може да е 14-ти (което би го предиздвикало да гадае сред юли или август). Останалите дати са 15 или 17 август, или 16 юли. Албърт знае кой месец и изказванието, че към този момент знае отговора, разкрива, че месецът би трябвало да е юли и че рожденият ден на Черил е 16 юли.
** Шансът в началото да изберете вярната врата е 25 % и това не се трансформира, когато Монти Хол отвори две празни порти. Следователно шансът да спечелите $10 000 е 75 %, в случай че преминете към оставащата врата, и 25 %, в случай че останете при първичния си избор. За човек, който поема задоволително корав риск, коства си да заплати до $5000, с цел да премине.
Следвайте, с цел да научите първо за най-новите ни истории, и се абонирайте за нашия подкаст, където и да слушате